Ten projekt składa się z dwóch części: 1. Historyczne wyniki polskiej reprezentacji w Pucharze Świata, 2. Jak dalego trzeba skoczyć aby wygrać zawody? - czyli analiza długości skoków w zawodach Pucharu Świata.
Pierwsza część skupia się na historycznej analizie wyników polskiej reprezentacji w skokach narciarskich w Pucharze Świata w latach 1994-2025. Obejmuje więc zarówno “Erę Małysza” jak i lata późniejsze, aż do teraźniejszości.
W drugiej częśći projektu staram się pokazać potencjał drzemiący w
stworzonym przeze mnie zbiorze danych, zawierającym szczegółowe
informacje o przeszło 2 i pół tysiącach skoków narciarskich.
Analizowane są głównie długości skoków w różnych zawodach Pucharu Świata
na przestrzeni kilku sezonów. Na końcu tej części staram się
odpowiedzieć na pytanie: “jak daleko należy skoczyć w konkursie aby
zająć 1 (lub inne) miejsce?”.
Ostatnimi czasy wśród kibiców polskiej reprezentacji w skokach narciarskich panuje pesymizm i nostalgia do czasów nieodwracalnie minionych. Osobiście zawsze jestem zwolennikiem merytorycznej krytyki i prób znalezienia optymalniejszych rozwiązań. Nie jestem w stanie jednak zrozumieć hejtu, który wylewa się obecnie na sportowców, którzy całe swoje życia poświęcają tej dyscyplinie i robią co mogą, aby osiągnąć jak nalepsze wyniki.
Wiele opinii kibiców nie jest podparta żadnymi analizami, dlatego postanowiłem zająć się tym tematem i odpowiedzieć na pytanie - “Czy z polskimi skokami faktycznie jest aż tak źle?”
W tym celu zescrapowałem ze strony skokinarciarskie.pl zarówno historyryczne klasyfikacje generalne Pucharu Świata poczynając od 1994 roku, jak i klasyfikację obecnie trwającego cyklu.
Analizując poniższe wykresy warto pamiętać o tym, że obecnie liczba
konkursów wchodzących w skład Pucharu Świata zwiększyła się w stosunku
do tego, co było dawniej. W związku z tym zwiększyła się też pula
punktów do zdobycia. Z drugiej jednak strony pojawiają się liczne głosy,
że poziom PŚ stale rośnie, a więc punkty są coraz trudniejsze do
zdobycia. Moja analiza nie uwzględnia tych czynników.
Na wykresie wyraźnie widać wybuch formy Adama Małysza w sezonie 2000/01, który zapoczątkował Małyszomanię.
Widać też, że “Złotą Erą” polskich skoków był okres 2016-2023 i że obecnie faktycznie jest gorzej niż w tych latach, lecz wcale nie najgorzej w kontekście całego rozważanego okresu.
(Należy pamiętać, że sezon 2024/2025 wciąż trwa i liczba zdobytych w
nim punktów jeszcze wzrośnie).
Na wykresie, począwszy od sezonu 1999/2000 zaznaczyłem pierwszych trenerów kadry A w danych okresach.
Widać jak przejęcie kadry przez Tajnera zbiegło się z przełomem w wynikach Adama Małysza. Widać również progres wielu polskich skoczków po przejęciu kadry przez Horngachera.
Ciekawą zależnością jest też to, że często po zmianie trenera kadra
zaczyna osiągać lepsze wyniki. Jest tak w sezonach: 99/00, 04/05, 16/17,
22/23. Widzę dwa prawdopodobne wyjaśnienia tego zjawiska: 1. Nowo
zatrudniony trener wprowadza nowe metody treningowe i “powiew świeżości”
przez co skoczkowie zaczynają lepiej skakać 2. Trenera zwalnia się po
wyjątkowo nieudanym sezonie. Oczywiście możliwe jest też to, że ta
zależność jest dziełem przypadku.
Na tym wykresie czytelnie widać historyczne rezultaty poszczególnych skoczków. Na jego podstawie można spróbować rozstrzygnąć odwieczny spór i zaryzykować stwierdzenie, że jeśli chodzi o występy w PŚ to kariera Adama Małysza była bardziej okazała niż Kamila Stocha. Oczywiście nie uwzględniamy tutaj innych sukcesów skoczka z Zębu takich jak złota igrzysk olimpijskich - czegoś, czym Małysz nie może się pochwalić. Pamiętajmy też, że Stoch nie powiedział jeszcze ostatniego słowa ;)
Druga część projektu bazuje na autorskim zbiorze danych, o którym opowiem więcej za chwilę. Przedmiotem analizy są długości skoków w konkursach Pucharu Świata. Zacznę od wytłumaczenia o co chodzi w skokach narciarskich, a na końcu postaram się odpowiedzieć na pytanie: “jak daleko należy skoczyć w konkursie aby zająć 1 (lub inne) miejsce?”.
Skoki narciarskie to piękny sport, który generuje wiele konkretnych danych. Dane te są jednak dość trudno dostępne - w internecie brakuje zbiorów danych gotowych do prowadzenia analiz. Danych w bardzo mało przystępnej formie (np. pdfy z raportami z zawodów) trzeba szukać na stronach takich jak oficjana strona fisu.
Prawdopodobnie z tego powodu brakuje ciekwaych analiz dotyczących tej tematyki. Z ciekawych rzeczy, które udało mi się znaleźć to ta analiza Alexandra Levakova: analiza 1. I ten zbiór danych: kaggle.
Żadna z tych rzeczy nie dostaczyła jednak odpowiedzi na dręczące mnie
pytania, więc musiałem przeprowadzić własną analizę.
W związku z brakiem interesujących mnie danych w łatwo dostępnej formie stworzyłem własne rozwiązanie do ich pozyskania. Za pomocą darmowego narzędzia Tabula przekonwertowałem fisowskie raporty z zawodów indywidualnych do plików csv. Następnie napisałem w R skrypt do czyszczenia tak otrzymanych danych. W ten sposób powstał prawdopodobnie największy i najkompletniejszy zbiór danych zawierających informacje o skokach jaki jest dostępny w sieci.
Obecnie zbiór danych zawiera informacje o skokach z 44 konkursów Pucharu Świata z 12 skoczni, które odbyły się w ciągu 3 sezonów.
O każdym z ponad 2 i pół tysiąca skoków dostępna jest pełna informacja w tym: imię zawodnika, odległość, noty (od każdego sędziego i sumarycznie), informacje o wietrze i belce i wiele, wiele więcej.
Zbiór łatwo można poszerzyć o kolejne rekordy za pomocą gotowych
narzędzi: Tabula i przygotowanego przeze mnie skryptu R.
Przejdźmy do metirum. Skoki narciarskie to dyscyplina sportowa, w której należy skoczyć na nartach jak najdalej. Oprócz odległości otrzymuje się punkty za styl, oraz rekompensatę za wiatr. Zazwyczaj konkurs indywidualny skoków narciarskich w ramach Pucharu Świata składa się z dwóch serii. W pierwszej skacze 50 zawodników, w drugiej 30 najlepszych z pierwszej serii. Ostateczna nota jest sumą punktów z obu skoków.
Skocznia narciarska, na której rozgrywaja się zawody składa się z rozbiegu, miejsca wybicia i zeskoku- strefy lądowania.
Strefa lądowania ma dwa najważniejsze parametry - punkt K, względem którego liczy się punkty za odległość i HS - rozmiar skoczni, za którym zeskok gwałtownie się wypłaszcza i dalsze skoki są uznawane za niebezpieczne.
Budowę skoczni przedstawia poniższa grafika z
wikipedii.
| Kod skoczni | Punkt K | HS | Nazwa |
|---|---|---|---|
| lil | 123 | 140 | Lillehammer |
| ruk | 120 | 142 | Ruka |
| wis | 120 | 134 | Wisla |
| eng | 125 | 140 | Engleberg |
| gap | 125 | 142 | Ga-Pa |
| bis | 125 | 142 | Bischofshofen |
| zak | 125 | 140 | Zakopane |
| wil | 130 | 147 | Willingen |
| sap | 123 | 137 | Sapporo |
| vik | 200 | 240 | Vikersund |
| lah | 116 | 130 | Lahti |
| pla | 200 | 240 | Planica |
Przed dalszą analizą konieczne jest zapoznanie się z rozkładem długości skoków w konkursach PŚ.
Oto histogram przedstawiający rozkład skoków w ramach przykładowego
konkursu PŚ (z obu serii konkursowych):
Sprawdzimy teraz czy rozkład ten jest normalny:
shapiro_result
##
## Shapiro-Wilk normality test
##
## data: df$distance
## W = 0.9909, p-value = 0.8735
Więc rozkład jest normalny.
Na wykresach widać kilka ciekawych zależności. Po pierwsze widać, że rozkład zależy od tego na jakiej skoczni odbywają się zawody. Szczególnie widoczna jest różnica między zawodami na skoczniach dużych i mamucich.
W obrębie tych samych skoczni jednak również występuje zróżnicowanie.
Wpływają zapewne na to warunki atmosferyczne, w kontekście których
rozgrywane były poszczególne konkursy jak i to, jak zachowawczo jury
ustawiło belkę.
Wykres prenentuje rozkłady długości wszystkich skoków na danym obiekcie.
Skocznie posortowane są zgodnie z rosnącą średnią długością skoku.
Widać różnicę w charakterystykach skoczni. Co może zaskakiwać,
największa skocznia duża - Willingen choć pozwala na najdalsze skoki
wcale nie przoduje ani w średnich, ani w medianach.
Obie porównywane skocznie mamucie mają taki sam punkt K - 200
metrów i HS - 240 metrów. Widać różnicę w charakterystyce skoczni. Loty
w Vikersund mają szerszy rozkład- są bardziej zróżnicowane pod kątem
uzyskiwanych odległości.
Różnica ta zapewne wynika z profili obu skoczni: w Planicy leci się wyżej nad zeskokiem, aż doleci się w okolicę punktu K, gdzie skocznia wypłaszcza się i “zbiera” zawodników. Natomiast w Vikersund profil skoczni został dobrany tak, że leci się bardzo nisko nad zeskokiem, przez co częstsze są lądowania tuż za bulą i krótkie skoki.
Widać to w słynnym filmie
“wysoki” lot
Piotrka Żyły prezentującym próbę tego zawodnika właśnie na mamucie w
Vikersund.
Czy różnicę w rozkładach między obiektami wynikają tylko z ich wielkości (rozumianej jako zarówno umiejscowienie punktu K, jak i HS)? Czy może od czegoś jeszcze?
Między innymi po to, żeby odpowiedzieć na to pytanie postanowiłem znormalizować długości skoków tak, aby móc je porównywać niezależnie od skoczni na jakiej miały miejsce. Wykorzystałem do tego właśnie parametry skoczni. A więc znormalizowany skok ma wartość 0, gdy był równy punktowi K i 1, gdy skoczek wylądował dokładnie w punkcie HS.
Tak prezentuje się wykres dla tak znormalizowanych rozkładów skoków z
pierwszych serii konkursowych:
Widać, że dalej występują różnice między obiektamim choć są one mniejsze (szczególnie w wypadku skoczni o różnym typie - mamucie vs duże).
Widać też, że znacznie większy wpływ mają inne czynniki jak warunki
atmosferyczne (widać to dobrze w przypadku Zakopanego).
Znormalizowane długości skoków wykorzystałem, aby odpowiedzieć na
powyższe pytanie. Najpierw jednak zaprezentuję rozkład wszystkich
znormalizowanych długości skoków:
Za pomocą kwantyli wyznaczyłem jak daleko w normalizowanej skali (a
także w przeliczeniu na kilka wybranych skoczni) trzeba skoczyć, żeby
zająć n-te miejsce w zawodach (a dokładniej mówiąc w pierwszej serii
konkursowej).
| Miejsce | Dystans Normalizowany | Lahti | Ruka | Vikersund | Wisła | Zakopane |
|---|---|---|---|---|---|---|
| 49 | -1.3703209 | 96.81551 | 89.85294 | 145.1872 | 100.8155 | 104.4452 |
| 48 | -1.0333333 | 101.53333 | 97.26667 | 158.6667 | 105.5333 | 109.5000 |
| 47 | -0.8823529 | 103.64706 | 100.58824 | 164.7059 | 107.6471 | 111.7647 |
| 46 | -0.7648627 | 105.29192 | 103.17302 | 169.4055 | 109.2919 | 113.5271 |
| 45 | -0.6351515 | 107.10788 | 106.02667 | 174.5939 | 111.1079 | 115.4727 |
| 44 | -0.5470588 | 108.34118 | 107.96471 | 178.1176 | 112.3412 | 116.7941 |
| 43 | -0.5000000 | 109.00000 | 109.00000 | 180.0000 | 113.0000 | 117.5000 |
| 42 | -0.4117647 | 110.23529 | 110.94118 | 183.5294 | 114.2353 | 118.8235 |
| 41 | -0.3529412 | 111.05882 | 112.23529 | 185.8824 | 115.0588 | 119.7059 |
| 40 | -0.3000000 | 111.80000 | 113.40000 | 188.0000 | 115.8000 | 120.5000 |
| 39 | -0.2500000 | 112.50000 | 114.50000 | 190.0000 | 116.5000 | 121.2500 |
| 38 | -0.2142857 | 113.00000 | 115.28571 | 191.4286 | 117.0000 | 121.7857 |
| 37 | -0.1785714 | 113.50000 | 116.07143 | 192.8571 | 117.5000 | 122.3214 |
| 36 | -0.1428571 | 114.00000 | 116.85714 | 194.2857 | 118.0000 | 122.8571 |
| 35 | -0.1057143 | 114.52000 | 117.67429 | 195.7714 | 118.5200 | 123.4143 |
| 34 | -0.0681818 | 115.04545 | 118.50000 | 197.2727 | 119.0455 | 123.9773 |
| 33 | -0.0357143 | 115.50000 | 119.21429 | 198.5714 | 119.5000 | 124.4643 |
| 32 | 0.0000000 | 116.00000 | 120.00000 | 200.0000 | 120.0000 | 125.0000 |
| 31 | 0.0125000 | 116.17500 | 120.27500 | 200.5000 | 120.1750 | 125.1875 |
| 30 | 0.0588235 | 116.82353 | 121.29412 | 202.3529 | 120.8235 | 125.8824 |
| 29 | 0.0714286 | 117.00000 | 121.57143 | 202.8571 | 121.0000 | 126.0714 |
| 28 | 0.1071429 | 117.50000 | 122.35714 | 204.2857 | 121.5000 | 126.6071 |
| 27 | 0.1428571 | 118.00000 | 123.14286 | 205.7143 | 122.0000 | 127.1429 |
| 26 | 0.1666667 | 118.33333 | 123.66667 | 206.6667 | 122.3333 | 127.5000 |
| 25 | 0.2000000 | 118.80000 | 124.40000 | 208.0000 | 122.8000 | 128.0000 |
| 24 | 0.2142857 | 119.00000 | 124.71429 | 208.5714 | 123.0000 | 128.2143 |
| 23 | 0.2500000 | 119.50000 | 125.50000 | 210.0000 | 123.5000 | 128.7500 |
| 22 | 0.2797143 | 119.91600 | 126.15371 | 211.1886 | 123.9160 | 129.1957 |
| 21 | 0.2941176 | 120.11765 | 126.47059 | 211.7647 | 124.1176 | 129.4118 |
| 20 | 0.3333333 | 120.66667 | 127.33333 | 213.3333 | 124.6667 | 130.0000 |
| 19 | 0.3571429 | 121.00000 | 127.85714 | 214.2857 | 125.0000 | 130.3571 |
| 18 | 0.3928571 | 121.50000 | 128.64286 | 215.7143 | 125.5000 | 130.8929 |
| 17 | 0.4125000 | 121.77500 | 129.07500 | 216.5000 | 125.7750 | 131.1875 |
| 16 | 0.4333333 | 122.06667 | 129.53333 | 217.3333 | 126.0667 | 131.5000 |
| 15 | 0.4666667 | 122.53333 | 130.26667 | 218.6667 | 126.5333 | 132.0000 |
| 14 | 0.5000000 | 123.00000 | 131.00000 | 220.0000 | 127.0000 | 132.5000 |
| 13 | 0.5333333 | 123.46667 | 131.73333 | 221.3333 | 127.4667 | 133.0000 |
| 12 | 0.5625000 | 123.87500 | 132.37500 | 222.5000 | 127.8750 | 133.4375 |
| 11 | 0.5901604 | 124.26225 | 132.98353 | 223.6064 | 128.2622 | 133.8524 |
| 10 | 0.6176471 | 124.64706 | 133.58824 | 224.7059 | 128.6471 | 134.2647 |
| 9 | 0.6470588 | 125.05882 | 134.23529 | 225.8824 | 129.0588 | 134.7059 |
| 8 | 0.6818182 | 125.54545 | 135.00000 | 227.2727 | 129.5455 | 135.2273 |
| 7 | 0.7142857 | 126.00000 | 135.71429 | 228.5714 | 130.0000 | 135.7143 |
| 6 | 0.7647059 | 126.70588 | 136.82353 | 230.5882 | 130.7059 | 136.4706 |
| 5 | 0.7981818 | 127.17455 | 137.56000 | 231.9273 | 131.1745 | 136.9727 |
| 4 | 0.8409091 | 127.77273 | 138.50000 | 233.6364 | 131.7727 | 137.6136 |
| 3 | 0.8905000 | 128.46700 | 139.59100 | 235.6200 | 132.4670 | 138.3575 |
| 2 | 0.9666667 | 129.53333 | 141.26667 | 238.6667 | 133.5333 | 139.5000 |
| 1 | 1.0714286 | 131.00000 | 143.57143 | 242.8571 | 135.0000 | 141.0714 |
Co ciekawe, otrzymane wyniki pokrywają się mniej więcej z histogramem
długości skoków w Lahti z początku tej części raportu.
Powyższa analiza długości skoków nie odpowiada na wiele pytań. Jedno z tych, które się nasuwa to to, jak warunki wietrzne wpływają na analizowane rozkłady długości skoków w zawodach PŚ i czy na przykład nie jest tak, że silny wiatr powoduje, że występuje więcej outliersów?
Stowrzony przeze mnie dataset pozwala odpowiedzieć na tego typu pytania, ale wykracza to już poza tę analizę.
Na koniec zaprezentuję tylko jeden wykres uwględniający zmienne:
punkty za wiatr i noty za styl. Prezentuje on wyniki pierwszej serii
jednego z konkursów w Lahti.
Tutaj dam link do omawianego data setu jak go w końcu wrzucę na kaggle. Pozdrawiam i życzę miłej kawusi wszystkim czytającym ;)